"""
优化器
- GD BGD SGD MBGD
    引入了随机性和噪声
Momentum NAG等
    加入动量原则、具有 加速梯度下降的作用
AdaGrad RMSProp Adam AdaDelta
    自适应学习率
torch.optim.Adam
"""